智能论文笔记

Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments

Kouhei Sekiguchi , Aditya Arie Nugraha , Yicheng Du , Yoshiaki Bando , Mathieu Fontaine , Kazuyoshi Yoshii

分类：机器学习

2022-07-15

本文介绍了增强现实耳机（AR）耳机的实用响应和性能感知的开发，该耳机可帮助用户了解在真实嘈杂的回声环境中进行的对话（例如，鸡尾酒会）。人们可以使用称为快速多通道非负矩阵分解（FastMNMF）的最先进的盲源分离方法，该方法在各种环境中都可以在各种环境中效果很好。但是，其沉重的计算成本阻止了其在实时处理中的应用。相反，一种使用深神网络（DNN）来估算语音和噪声的空间信息的有监督的束形方法很容易适合实时处理，但在不匹配的条件下，性能急剧下降。鉴于这种互补特征，我们提出了一种基于基于DNN的横梁成形的双过程强大的在线语音增强方法，并通过FastMNMF引导的适应性。 FastMNMF（后端）以迷你批次样式进行，嘈杂和增强的语音对与原始的并行训练数据一起使用，用于更新方向感知的DNN（前端），并在可计算上可允许的间隔内进行反向传播。该方法与盲遗产方法一起使用，称为加权预测错误（WPE），用于抄写扬声器的嘈杂的回响语音，可以从视频中检测到，或以用户的手势或眼睛注视，以流式传输方式和空间显示。用AR技术的转录。我们的实验表明，仅使用十二分钟的观察，随着运行时间的适应，单词错误率提高了10点以上。

translated by 谷歌翻译

本文介绍了增强现实耳机的嘈杂语音识别，该耳机有助于在真实的多方对话环境中进行口头交流。在模拟环境中积极研究的一种主要方法是，基于以监督方式训练的深神经网络（DNNS），依次执行语音增强和自动语音识别（ASR）。但是，在我们的任务中，由于培训和测试条件与用户的头部移动之间的不匹配，因此这种预处理的系统无法正常工作。为了仅增强目标扬声器的话语，我们基于基于DNN的语音掩码估计器使用束构造，该估计量可以适应地提取与头部相关特定方向相对应的语音组件。我们提出了一种半监督的适应方法，该方法使用带有地面真实转录和嘈杂的语音信号的干净语音信号在运行时共同更新蒙版估计器和ASR模型，并具有高度固定的估计转录。使用最先进的语音识别系统的比较实验表明，所提出的方法显着改善了ASR性能。

translated by 谷歌翻译

自1970年代初以来，已经开发并改进了质谱仪和不连贯的散射雷达（MSIS）模型家族。 MSI的最新版本是海军研究实验室（NRL）MSIS 2.0经验大气模型。 NRLMSIS 2.0提供物种密度，质量密度和温度估计作为位置和空间天气条件的功能。长期以来，MSIS模型一直是研究和运营社区中的大气模型的流行选择，但与许多模型一样，并未提供不确定性估计。在这项工作中，我们开发了基于机器学习（ML）的外层温度模型，该模型可与NRLMSIS 2.0一起使用，以相对于高保真卫星密度估计值校准其。我们的模型（称为MSIS-UQ）没有提供点估计，而是输出一个分布，该分布将使用称为校准误差评分的度量进行评估。我们表明，MSIS-UQ的DEMIAS nRLMSIS 2.0导致模型和卫星密度之间的差异减少25％，并且比太空力量的高精度卫星阻力模型更接近卫星密度。我们还通过生成物种密度，质量密度和温度的高度曲线来显示模型的不确定性估计功能。这明确证明了外层温度概率如何影响NRLMSIS 2.0内的密度和温度曲线。另一项研究显示，相对于单独的NRLMSIS 2.0，迅速过冷的能力提高了，从而增强了它可以捕获的现象。

translated by 谷歌翻译

机器学习（ML）通常被视为一种黑盒回归技术，无法提供相当大的科学见解。 ML模型是通用函数近似器，如果正确使用，则可以提供与用于拟合的地面数据集有关的科学信息。 ML比参数模型的好处是，没有预定义的基础函数限制可以建模的现象。在这项工作中，我们在三个数据集上开发了ML模型：太空环境技术（SET）高精度卫星阻力模型（HASDM）密度数据库，这是Jacchia-Bowman 2008经验热层密度模型（JB2008），Jacchia-Bowman 2008经验的空间端段匹配数据集，以及具有挑战性的Minisatellite有效载荷（Champ）的加速度计衍生的密度数据集。将这些ML模型与海军研究实验室质谱仪和不相互分的散射雷达（NRLMSIS 2.0）模型进行比较，以研究中热层中传感后冷却的存在。我们发现NRLMSIS 2.0和JB2008-ML都不能说明后冷却，因此在强烈的地磁风暴（例如2003年万圣节风暴）之后的时期内表现不佳。相反，HASDM-ML和Champ-ML确实显示了传感后冷却的证据，表明这种现象存在于原始数据集中。结果表明，根据位置和暴风雨强度，速度1-3天的密度降低可能会发生1--3天。

translated by 谷歌翻译